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Введение, или зачем мы строим 
большие кластеры YT 


Жизнь в больших компаниях 


Жизнь в больших компаниях 


| Сотня подразделений со своими 
задачами 


Жизнь в больших компаниях 


| Сотня подразделений со своими 
задачами 


| Общие данные 


Жизнь в больших компаниях 


| Сотня подразделений со своими 
задачами 


| Общие данные 


| Куча железа 


Жизнь в больших компаниях 


| Сотня подразделений со своими 
задачами 


| Общие данные 
| Куча железа 


| Непостоянное использование 
вычислительных ресурсов 


Доля используемьтх ресурсов во времени 
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Зачем нам один общий кластер? 
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Свой кластер - своя зксплуатация 


| В Яндексе 50+ крупных подразделений 


| Свой кластер - своя команда SRE 


х 50 vs 


Что такое ҮТ 


| Внутренняя система для хранения и обработки данных Яндекса 
| - 30 разработчиков в отделе 
| 30'000+ серверов в эксплуатации 


| 1'000'000+ СРО на самом крупном кластере 


Чем занимаются кластеры YT 
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Надоор Опмегве 


| Хранение метаинформации (Masters) | | NameNode, Zookeeper 
| Хранение больших данных (Моде5) | | DataNode 
| Обработка данных ‹ | Hadoop MapReduce 
) Планирование (Schedulers and Agents) | ) Yarn and App Masters 
) Исполнение (Nodes) · ) МодеМападег 


| OLTP КУ-хранилище (Tablet Nodes) : | НВазе, Саззапага 
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Условная схема кластера 
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А почему не Надоор? 
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А почему не Надоор? 


| Не умеет в наши масштабы 


А почему не Надоор? 


| Не умеет в наши масштабы 


| Сложная кодовая база 


А почему не Надоор? 


| Не умеет в наши масштабы 
| Сложная кодовая база 


| Мы умеем 
) Соблюдать строгие мгновенные гарантии 
) Обеспечивать интегральные гарантии 
) Решать задачи фрагментации 


) ... 


02 


Планировщик, кто он такой? 


Терминология 


УТ Operation 


Disclaimer! 
YT Job 


+->» 


+->» 


Hadoop Job 


Hadoop Тазк 


С чем приходится иметь дело планировщику 


| Исполнение запросов пользователей 


{ 


“Inpe Co leoi Б 5 

о ОН (ИШИ И 

"шаррек s 4 
"command": "./my wonderful binary", 
"files": ["//home/babenko/my wonderful binary", ...], 
"opu guarantee si 10, 


"memory guarantee": 20'000'000'000, 


) 


"pool": "gev", 


С чем приходится иметь дело планировщику 


| Общение с нодами 


Запрос от ноды 
) Бегущие джобы 
) Свободные ресурсы 


Ответ ноде 
) Новые джобы 
) Аборты некоторых джобов 


С чем приходится иметь дело планировщику 


| Общения с агентами, которые планируют операции 


Запросы от планировщика 

) Сообщает спеку операции 

) Сообщает о событиях с джобами 
) Просит запланировать джоб 


Ответы планировщику 
) Запланированные джобы 
) Сообщения об окончании операции 


С чем приходится иметь дело планировщику 
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Как тяжело жить 


16'000 хартбитов в секунду 


ћаћп ~ scheduler грс ~ Heartbeat ~ yt.rpc.server.request count.rate v Aggr У root v Auto v + 
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Немного статистики 


| -7'000'000 операций в день 
| ~ 7000 джобов завершается за 1 секунду 


| ~600'000 попыток предложить ресурсы операции за 1 секунду 


ОЗ 


Так как же поделить төрт кластер 


Что известно планировщику 
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Модель принятия решений 
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Модель принятия решений 


| Вводные 
) В кластере больше 10'000 нод 
) Средняя длительность джоба ~1 минута 


Модель принятия решений 


| Вводные 
) В кластере больше 10'000 нод 
) Средняя длительность джоба ~1 минута 


| Следствие 


) Планировать надо очень быстро и очень много 
) Решения о планировании принимаются на каждый хартбит 
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НЕО-стратегил 


ДЕ | Операция 


) usage – Uo, 


22 Сор «7» у demand – dop 


) job resources - Jop 


| Нода 
) Нее — Где 


Ищем операцию с 


И ор < dop И ор < l'node 


А как же честность? 


Аналитик, запускающий греп логов за 
год и занимающии весь кластер 
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Пулы 


cog 500 
ст РАМ. 3000 


С Ру. 1000 
RAN:H000 
деу 
CP 7 3 
C. РИУ - соле 5 


РАМ - GB 


Стратегия на основе fairness 


Посчитаем величины: 
) Лоо! – ДОЛЯ кластера, положенная пулу 


) И5 оо ДОЛЯ кластера, выданная пулу 


Выберем пул с минимальным из, /]$ роді 
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Мах-тіп fairness 


Будем делить только СРО, наливаем пропорционально гарантиям" 


ИТ all resources 


| pools 
НО 


" Фактически мы делаем бинпоиск по раздаваемой доле ресурсов 


— demand 


EE fai але 
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Мах-тіп fairness 


Будем делить только СРО, наливаем пропорционально гарантиям" 


all тезоулсез5 
pools 


— demand 


E fai але 


" Фактически мы делаем бинпоиск по раздаваемой доле ресурсов РА 


Мах-тіп fairness 


Будем делить только СРО, наливаем пропорционально гарантиям" 


Zl ali Тезоулсез5 
pools 


— demand 


ERU fai але 


" Фактически мы делаем бинпоиск по раздаваемой доле ресурсов 


Max-min fairness: heartbeat 


Выбираем пул c минимальным ИЗ бо! Spool 


Моде. 


y, - чзаде 
EE - {ат <рале 
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Dominant resource fairness" 


Хотим делить He только CPU 


Идея: переведем вектор в число (доминантную долю) 


аи 


5000 40000 300 2500 
CPU RAM сри RAM 


* A.Ghodsi, et.al [2011]: Dominant Resource Fairness: Fair Allocation of Multiple 
Resource [ypes " 


DRF: распределение fair share 


Делим все ресурсь, но с одинаковой пропорциональностью 


ХА | | | шш 


pools 
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ОКЕ: heartbeat 


Выбираем пул с минимальным из оо! оо (share no доминантному ресурсу) 
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ОКЕ: насыщение 
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ОВЕ: свойства 
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ОКЕ: свойства 


| умеет доедать ресурсы кластера 
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ОКЕ: свойства 


| умеет доедать ресурсы кластера 


| Поддерживает CPU, ВАМ 
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ОКЕ: свойства 
| умеет доедать ресурсы кластера 
| Поддерживает CPU, ВАМ 


| Дает гарантии по доминантному ресурсу 
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ОКЕ: свойства 

| умеет доедать ресурсы кластера 

| Поддерживает CPU, ВАМ 

| Дает гарантии по доминантному ресурсу 


| Излишки раздает пропорционально гарантиям 
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Чего не хватает? 


| Хочется делить ресурсы иерархически 


Компания очень большая 
) Яндекс.Поиск - 2000+ сотрудников 
) Яндекс.Гео — 500+ сотрудников 


) ... 


5 yt list //sys/pools | wc -1 
171 
5 yt find //sys/pools | wc -1 
2170 


34 


Чего не хватает? 


| Хочется делить ресурсы иерархически 
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Hierarchical ОКЕ 


Делим ресурсы в корне 
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pools 
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Hierarchical ОКЕ 


Делим ресурсы в подпулах 
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НіегагсПіса! РЕР: heartbeat 


) Выбираем пул с минимальным их, ,//5,„„ B корне 


) Повторяем рекурсивно 
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Hierarchical ОКЕ: скрытая угроза проблема 


39 


Satisfaction НОКЕ: исправляем проблему 


| Выберем поддерево с минимальным из оо! роді 


7, - чзазе 
това - fan знале 
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Satisfaction HDRF 


| Есть неопубликованная статья, показывающая "корректность" 


Hierarchical Fair Share Scheduling Revisited 


Ignat Kolesnichenko 


Andrey Kashin 


Yandex LCC, Moscow, Russia | National Research University Higher School of Economics 


па уапдех-Теат.ги 


Abstract 


Problem of optimal and fair resource allocation in large het- 
erogeneous systems has been actively researched during last 
decade. Moreover, the interest in efficient algorithms in this 
field still grows because even a 10 percent utilization im- 
provement in cluster of 1000 machines saves a lot of re- 
sources and monev for а comnanv. The main eoal of sched- 


acidOyandex-team.ru 


[? ], Mesos [? ]. These systems provide a lot of features for 
users to make their job easier. Among these features are: re- 
liable and efficient storage, batch data processing, real-time 
key value storage. One of the challenges in designing such 
systems is providing efficient resource utilization of clus- 
ters along with some priority guarantees for tasks that run 
on such systems. 
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Чего еще не хватаєт? 


| Хочется давать векторные гарантии 


ОКЕ умеет векторно раздавать ресурсы, но не умеет гарантировать 


— demand 
mmu fai але. 
- guatantee 
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Vector HDRF: наивное решение 


| Давайте раздавать пропорционально гарантиям 


24 а|| тезоилсез 


pools 


— demand 
жено ‘ад але. 
= дчатаг ее 
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Местог НОКЕ: наивное решение 


| Давайте раздавать пропорционально гарантиям 


Яш. mE 0\1 xesouxces 


pools 


— demand 
ET far shae 
== guatantee 
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Vector HDRF: наивное решение 


| Давайте раздавать пропорционально гарантиям 
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Vector HDRF: наивное решение 


| Давайте раздавать пропорционально гарантиям 
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Vector НОВЕ 


Построим для пулов функцию suggestion(x) = (cpu(x),memory(x)) 
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Vector НОВЕ 


Построим для пулов функцию suggestion(x) = (cpu(x),memory(x)) 
) X— дола ресурсов кластера 
) Функция кусочно-линейная 


Может быть вычислена за линейное время от числа точек изгиба 


Избегаем диспропорции детапа и == 
таг зћаге | 


| 
| | | | Г 


Детали опубликуем в статье 


НЕ 
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Vector НОВЕ 


Реализован в YT 
) Умеем выдавать непропорциональные гарантии 
) Меньше проблем с вытеснением 


УТ-12381: Vector fair share (#3819) Browse files 


Hopefully, the new generation of the scheduling algorithm 
D master (#3819) 


antonkikh committed on Feb 27, 2020 1 parent 085f042 | commit 5e11b6703604b548aa35a971aa215013147e40ad 


Showing 40 changed files with 7,990 additions and 765 deletions. Unified | Split 
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Vector НОВЕ 


Так почему же тут сумма больше единицы? 
Огарһ 
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Hour Day Week | Month | Year 


Apr 27 12:00 Apr 28 12:00 
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Vector НОВЕ 


Так почему же тут сумма больше единицы? 
Огарһ 


share... Pin : 2021-04-26 -2021-05-03 


2021-04-20 –2021-05-05 Now << -5 4. Е 
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Hour Day Week | Month | Year 


Fair share векторный, а сумма по доминантной доле 


Арг 27 12:00 Арг 28 12:00 


Арг 29 12:00 Арг 30 12:00 Мау 01 12:00 Мау 02 12:00 Мау 03 
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Выводы 


| Задача планирования - это непросто 
) Необходимо планировать несколько ресурсов: CPU, RAM 
) Необходимы пулы со строгими гарантиями 


) Нужно поддерживать иерархию пулов 
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Что еще умеет планировщик ҮТ 
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Что еще умеет планировщик ҮТ 


| Обеспечивает интегральные гарантии 
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Что еще умеет планировщик ҮТ 


| Обеспечивает интегральные гарантии 


| Поддерживает планирование на GPU 


Что еще умеет планировщик ҮТ 


| Обеспечивает интегральные гарантии 
| Поддерживает планирование на GPU 


| Умеет на лету изменять гарантии 
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Что еще умеет планировщик ҮТ 


Обеспечиваєт интегральные гарантии 
Поддерживает планирование на GPU 


умеет на лету изменять гарантии 


Учитьваєт фактическое потребление ресурсов джобами 
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